應用興趣點辨識技術從 Web 中挖掘新商家資訊 (Mining POIs from Web via POI recognition and Relation Verification) [In Chinese]

نویسندگان

  • Kuo-Hsin Hsu
  • Hsiu-Min Chuang
  • Chien-Lung Chou
  • Chia-Hui Chang
چکیده

This paper presents a system that could automatically extract new POIs from Web. First, we use special queries (e.g. Taipei+New Open) to find Web pages that might contain addresses for new stores. For web pages that contain addresses, we then apply store name recognition model to extract possible POIs. Finally, we train a model to find the most possible POI for the address found in the page. In this paper, we focus on POI name recognition and POI relation prediction. For POI recognition, we use store names from yellow pages as seed to prepare the training data via distant learning. Through entity selection and data processing, we obtain a model with 0.816 F1-measure as opposed to 0.432 F1-measure for a dictionary-based baseline. As for POI relation prediction, we compare three different strategies for negative example preparation. The best model could get 0.754 accuracy. We combine two POI recognition models with three classification models to test the overall performance. The best combination could extract 49 POIs every day with a single IP. 關鍵詞:興趣點辨識模型、二元分類關聯分類模型

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

線上新聞語音檢索系統 (Online New Retrieval Based on Speech Input) [In Chinese]

陳江村 羅瑞麟 張智星 國立清華大學 資訊工程系 新竹市光復路二段 101 號 E-mail : {jtchen,roro,jang}@wayne.cs.nthu.edu.tw TEL: (03)5715131-3582 摘要: 在此報告中,我們實作了一個結合隱藏式馬可夫模型(Hidden Markov Model, HMM) 為基礎的 HTK(HMM Toolkit)和網頁資料檢索技術的線上新聞語音資料檢索系 統。一般的網頁資料檢索(如 google)須使用者輸入相關文字,才得以文字比對 方式進行檢索。在此我們則嘗試加入語音辨識的技術讓使用者更易進行檢索。本 系統分成新聞前處理及語音查詢兩階段。在辨識內容固定,高準確度的辨識結果 下,本系統特別適用於手機、PDA、嵌入式系統等小型、不易以手操作輸入的裝 置。本系統亦經清大盲友會的盲人朋友試用,反應十分良好。 關鍵詞:語音辨識、資料檢...

متن کامل

強健性語音辨識中分頻段調變頻譜補償之研究 (A Study of Sub-band Modulation Spectrum Compensation for Robust Speech Recognition) [In Chinese]

雖然語音科技進步迅速,但自動語音辨識仍是一門值得繼續研究開發的課題。因為 目前多數的語音辨識系統應用於不受干擾的安靜環境,雖然能得到相當滿意的辨識效 果,但若將其應用於實際的環境中,語音訊號往往會因為環境雜訊的影響,導致辨識效 能有明顯地衰減,發展多年的強健性技術即是針對此項缺點作改進。 在諸多強健性技術中,有一類方法為對語音特徵作統計上的正規化,傳統上, 這些方法都是對全頻段的語音特徵時間序列做正規化處理,然而,在分析此類方法的效 能上,通常是以其調變頻譜的正規化程度作為效能的依據,因此,如果直接在語音特徵 之調變頻譜上作正規化,應亦可達到不錯的效果。另外,由於不同頻率的調變頻率成 份具有不相等的重要性,但是傳統之特徵時間序列正規化法相對忽略了此性質,基於這 些觀察,在本論文中,我們提出了一系列的分頻段調變頻譜統計正規化法,此類方法可 以分別正規化不同頻段的統計特性,進而提升語音特...

متن کامل

多語聲學單位分類之最佳化研究 (The Study of Acoustic Model Clustering in Multilingual Speech Recognition) [In Chinese]

由於全球化的形成,人與人之間的溝通不再限於同一種語言,因此多語的語音辨識也變 的格外的重要。如何有效整合多語的聲學模型是一個關鍵議題,因為一組好的多語聲學 單位將影響辨識結果。本論文提出了一套整合專家背景知識與實際語音分析的方法,來 產生一組新的聲學單位,並且對這組聲學單位的數目,使用差分貝式資訊法則來做最佳 的處理。從訓練好的隱藏式馬可夫聲學模型中,計算其單位間的相似度矩陣,之後透過 語音學和音韻學的知識,限定了各個聲學單位能群化的上限,根據不同限定的群化上 限,使用聚合階層式分群法,來建立不同的結構樹。之後,利用差分貝式資訊法則,將 每個結構樹中發音相近的聲學單位做合併,當差分貝式資訊法則的值小於零的時候,就 停止合併,而新合併成一群的聲學單位則為新的聲學單。我們將用 ForSDAT01 華台雙語 語料庫來實驗評量,而實驗結果顯示,本論文所提出的新方法比只用專家知識所定義的 聲學...

متن کامل

使用關聯法則為主之語言模型於擷取長距離中文文字關聯性 (Association Rule Based Language Models for Discovering Long Distance Dependency in Chinese) [In Chinese]

摘要 本論文提出一種能擷取長距離資訊的語言模型,它可以擷取多詞彙之間的關 聯性,擷取的方式是使用資料探勘中十分流行的 Apriori 演算法,傳統上 n-gram 語言模型只能在 n-gram 視窗內擷取到有限距離的資訊,較長距離的資訊也就因 此而流失,然而這些失去的長距離資訊對於語言模型是十分重要的,所以如何克 服 n-gram 模型缺乏長距離資訊一直是非常熱門的研究課題,觸發序對就是其中 一種有效的方法,其主要功能是在擷取長距離之詞序對資訊,也就是建立起詞與 詞之間的關聯性,然而我們所提出的關聯法則技術能擷取多元詞組間的關聯性, 可以說是進一步改良詞組數並建立更長距離資訊,而實驗結果也顯示本論文方法 比起傳統觸發序對獲得較低的 perplexity,此關聯法則技術也可以有效的與其他 模型調整及模型平滑化的技術結合,在語言模型的效率改善方面能有更良好的效 果,最後本論文也將提出的語...

متن کامل

最小變異數調變頻譜濾波器於強健性語音辨識之研究 (A Study of Minimum Variance Modulation Filter for Robust Speech Recognition) [In Chinese]

本論文所探討的是語音特徵強健性技術,藉此改善雜訊環境下語音辨識的效能。我們利 用原始最小變異數調變濾波器法設計的環境失真目標函數,應用至求取濾波器之最佳頻 率響應上,進而發展出兩種特徵時間序列濾波器求取演算法,分別為基於最小變異數準 則之最小平方頻譜擬合法 (MV-LSSF)及基於最小變異數準則之強度頻譜內插法 (MV-MSI)。在這兩種方法中,利用我們所求得的濾波器之最佳頻率響應取代原始最小 平方頻譜擬合法(LSSF)與強度頻譜內插法(MSI)中所使用的濾波器,來得到欲逼近的目 標功率頻譜密度。從 Aurora-2 連續數字資料庫的實驗結果證實,這兩種基於最小變異 數準之調變頻譜正規化法,在各種雜訊環境下都優於傳統的兩種調變頻譜正規化法,而 得到更佳的辨識精確度。與基礎實驗結果相比較,MV-LSSF 與MV-MSI 所達到之相對 錯誤降低率分別為在 55.41%與 51.20%,顯...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2017